3.4 处理组的平均因果效应其他被估计量

#DoublyRobust #IPW #OutcomeRegression #ObservationalStudy

前面的章节在可忽略性和重合度假设下, 研究 $τ = E [Y (1) - Y (0)]$ . 我们可以把这个讨论延伸到实验组和对照组上: $\begin{aligned} τ_{T} & = E [Y (1) - Y (0) | Z = 1], \\ τ_{C} & = E [Y (1) - Y (0) | Z = 0] . \end{aligned}$ 如果 $τ_{T}, τ_{C}$ 与 $τ$ 不同, 则平均因果效应在两个组上表现不同. 当然具体研究哪个取决于实际问题. 因为对称性, 本节只研究 $τ_{T}$ .

1 $τ_{T}$ 的非参数表示

实验组的平均因果效应可以写为 $τ_{T} = E [Y (1) | Z = 1] - E [Y (0) | Z = 1],$ 这里第一项可以从数据中直接看到, 但是 $E [Y (0) | Z = 1]$ 是虚构的. 我们需要给出如下假设:

假设 ("单侧"可忽略性, 和重合度)

$Z ⊥ ⊥ Y (0) | X$ , 以及 $e (X) < 1$ .

定理 1.1

在上述假设下, $\begin{aligned} E [Y (0) | Z = 1] & = E [E (Y | Z = 0, X) | Z = 1] \\ = \int E (Y | Z = 0, X = x) f (x | Z = 1) d x . \end{aligned}$

这说明 $τ_{T}$ 非参数地等于 $τ_{T} = E [Y | Z = 1] - E [E (Y | Z = 0, X) | Z = 1] .$

证明

我们有 $\begin{aligned} E [Y (0) | Z = 1] & = E [E {Y (0) | Z = 1, X} | Z = 1] \\ = E [E {Y (0) | Z = 0, X} | Z = 1] \\ = E {E (Y | Z = 0, X) | Z = 1} \\ = \int E (Y | Z = 0, X = x) f (x | Z = 1) d x . \end{aligned}$

如果 $X$ 是离散的, 定理的结果变为 $E [Y (0) | Z = 1] = \sum_{k = 1}^{K} E [Y | Z = 0, X = k] P (X = k | Z = 1),$ 因此我们可以得出这样的分层估计量 ${\hat{τ}}_{T} = \hat{\overset{―}{Y}} (1) - \sum_{k = 1}^{K} {\hat{π}}_{[k] | 1} {\hat{\overset{―}{Y}}}_{[k]} (0),$ 这里 ${\hat{π}}_{[k] | 1} = \frac{n_{[k] 1}}{n_{1}}$ 是 $k$ 类别在实验组中的比例.
而如果 $X$ 是连续的, 我们要用对照单元拟合一个 $E [Y | Z = 0, X]$ 的结果模型. 如果对照的潜在结果的拟合值为 ${\hat{μ}}_{0} (X_{i})$ , 则结果回归估计量为 ${\hat{τ}}_{T}^{reg} = \hat{\overset{―}{Y}} (1) - \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} {\hat{μ}}_{0} (X_{i}) = \frac{1}{n_{1}} \sum_{i = 1}^{n} Z_{i} {Y_{i} - {\hat{μ}}_{0} (X_{i})} .$

例子

如果我们对所有单元指定一个线性模型 $E [Y | Z, X] = β_{0} + β_{z} Z + β_{x}^{T} X,$ 则 $τ_{T} = E {E (Y | Z = 1, X) - E (Y | Z = 0, X) | Z = 1} = β_{z} .$
如果我们跑一个 OLS 得到 $({\hat{β}}_{0}, {\hat{β}}_{z}, {\hat{β}}_{x})$ , 则我们能用 ${\hat{β}}_{z}$ 来估计 $τ_{T}$ .

例子

因为公式里只取决于 $E [Y | Z = 0, X]$ , 所以我们要对控制组指定一个模型, 设为 $E [Y | Z = 0, X] = β_{0 | 0} + β_{x | 0}^{T} X,$ 我们有 $\begin{aligned} τ_{T} & = E [Y | Z = 1] - E [β_{0 | 0} + β_{x | 0}^{T} X | Z = 1] \\ = E [Y | Z = 1] - β_{0 | 0} - β_{x | 0}^{T} E [X | Z = 1] . \end{aligned}$
如果我们只对对照单元跑 OLS 来得到 $({\hat{β}}_{0 | 0}, {\hat{β}}_{x | 0})$ , 则估计量为 ${\hat{τ}}_{T} = \hat{\overset{―}{Y}} (1) - {\hat{β}}_{0 | 0} - {\hat{β}}_{x | 0}^{T} \hat{\overset{―}{X}} (1) .$ 根据 OLS 的性质, $\hat{\overset{―}{Y}} (0) = {\hat{β}}_{0 | 0} + {\hat{β}}_{x | 0}^{T} \hat{\overset{―}{X}} (0),$ 所以 ${\hat{τ}}_{T} = {\hat{\overset{―}{Y}} (1) - \hat{\overset{―}{Y}} (0)} - {\hat{β}}_{x | 0}^{T} {\hat{\overset{―}{X}} (1) - \hat{\overset{―}{X}} (0)} .$

2 $τ_{T}$ 的 IPW 和双重稳健估计

定理 2.1

依然在上述假设下, 我们有 $\begin{aligned} (2.1) & E [Y (0) | Z = 1] = E [\frac{e (X)}{e} \frac{1 - Z}{1 - e (X)} Y], \\ (2.2) & τ_{T} = E [Y | Z = 1] - E [\frac{e (X)}{e} \frac{1 - Z}{1 - e (X)} Y], \end{aligned}$ 这里 $e = P (Z = 1)$ 是实验处理的边界概率.

证明

(2.1) 的左边为 $\begin{aligned} E [Y (0) | Z = 1] & = \frac{E [Z Y (0)]}{e} = \frac{E [E (Z | X) E {Y (0) | X}]}{e} \\ = \frac{E [e (X) E {Y (0) | X}]}{e} . \end{aligned}$ 右边为 $\begin{aligned} E {\frac{e (X)}{e} \frac{1 - Z}{1 - e (X)} Y} & = E [E {\frac{e (X)}{e} \frac{1 - Z}{1 - e (X)} Y (0) | X}] \\ = E [\frac{e (X)}{e [1 - e (X)]} E {(1 - Z) Y (0) | X}] \\ = E [\frac{e (X)}{e [1 - e (X)]} E [1 - Z | X] E {Y (0) | X}] \\ = \frac{E [e (X) E {Y (0) | X}]}{e} . \end{aligned}$ 所以 (2.1) 成立.

我们还有两个 IPW 估计量 (回顾这里) $\begin{aligned} {\hat{τ}}_{T}^{ht} & = \hat{\overset{―}{Y}} (1) - \frac{1}{n_{1}} \sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i}) Y_{i}, \\ {\hat{τ}}_{T}^{hajek} & = \hat{\overset{―}{Y}} (1) - \frac{\sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i}) Y_{i}}{\sum_{i = 1}^{n} \hat{o} (X_{i}) (1 - Z_{i})}, \end{aligned}$ 这里 $\hat{o} (X_{i}) = \frac{\hat{e} (X_{i})}{1 - \hat{e} (X_{i})}$ 是给定协变量后接受实验处理的概率的拟合值.

我们还有一个 $E [Y (0) | Z = 1]$ 的双向稳健估计量, 包含了倾向得分和结果模型: ${\tilde{μ}}_{0 T}^{dr} = \frac{E [o (X, α) (1 - Z) {Y - μ_{0} (X, β_{0})} + Z μ_{0} (X, β_{0})]}{e},$ 这里 $o (X, α) = \frac{e (X, α)}{1 - e (X, α)}$ .

定理 2.2

在上述假设下, 如果 $e (X, α) = e (X)$ 或者 $μ_{0} (X, β_{0}) = μ_{0} (X)$ , 则 ${\tilde{μ}}_{0 T}^{dr} = E [Y (0) | Z = 1]$ .

证明

我们有分解 $\begin{aligned} e [{\tilde{μ}}_{0 T}^{dr} - E [Y (0) | Z = 1]] \\ = & E [o (X, α) (1 - Z) {Y (0) - μ_{0} (X, β_{0})} + Z μ_{0} (X, β_{0})] - E {Z Y (0)} \\ = & E [o (X, α) (1 - Z) {Y (0) - μ_{0} (X, β_{0})} - Z {Y (0) - μ_{0} (X, β_{0})}] \\ = & E [{o (X, α) (1 - Z) - Z} {Y (0) - μ_{0} (X, β_{0})}] \\ = & E [\frac{e (X, α) - Z}{1 - e (X, α)} {Y (0) - μ_{0} (X, β_{0})}] \\ = & E [E {\frac{e (X, α) - Z}{1 - e (X, α)} | X} \cdot E [Y (0) - μ_{0} (X, β_{0}) | X]] \\ = & E [\frac{e (X, α) - e (X)}{1 - e (X, α)} \cdot [μ_{0} (X) - μ_{0} (X, β_{0})]] . \end{aligned}$ 因此如果两个条件之一满足, 就有 ${\tilde{μ}}_{0 T}^{dr} - E [Y (0) | Z = 1] = 0$ .

基于前面的总体版本, 我们可以为 $τ_{T}$ 构造一个双重稳健估计量 .

τ_{T}

的双重稳健估计

基于 $(X_{i}, Z_{i}, Y_{i})_{i = 1}^{n}$ , 我们能通过如下步骤得到 $τ_{T}$ 的双重稳健估计量:

得到倾向得分 $e (X_{i}, \hat{α})$ 的拟合值, 以及几率 $o (X_{i}, \hat{α}) = \frac{e (X_{i}, \hat{α})}{1 - e (X_{i}, \hat{α})}$ 的拟合值.
得到对照组下结果 $μ_{0} (X_{i}, {\hat{β}}_{0})$ 的拟合值..
构造 ${\hat{τ}}_{T}^{dr} = \hat{\overset{―}{Y}} (1) - {\hat{μ}}_{0 T}^{dr}$ , 这里 ${\hat{μ}}_{0 T}^{dr} = \frac{1}{n_{1}} \sum_{i = 1}^{n} [o (X_{i}, \hat{α}) (1 - Z_{i}) {Y_{i} - μ_{0} (X_{i}, {\hat{β}}_{0})} + Z_{i} μ_{0} (X_{i}, {\hat{β}}_{0})] .$

根据定义, 我们可以写出 $e (X_{i}, \hat{α}) = {\hat{τ}}_{T}^{reg} - \frac{1}{n_{1}} \sum_{i = 1}^{n} o (X_{i}, \hat{α}) (1 - Z_{i}) {Y_{i} - μ_{0} (X_{i}, {\hat{β}}_{0})}$ 或者 $e (X_{i}, \hat{α}) = {\hat{τ}}_{T}^{ht} - \frac{1}{n_{1}} \sum_{i = 1}^{n} {o (X_{i}, \hat{α}) (1 - Z_{i}) + Z_{i}} μ_{0} (X_{i}, {\hat{β}}_{0}) .$

3 其他被估计量

从条件平均因果效应 $τ (X)$ 开始, 我们可以讨论观察性实验中的统一的待估计量形式. 记 $τ^{h} = \frac{E [h (X) τ (X)]}{E [h (X)]},$ 这里 $h (X)$ 是权重函数, $E [h (X)] \neq 0$ . 标准化项 $E [h (X)]$ 保证了平均值一致.
在可忽略性下, $τ^{h} = \frac{E [h (X) {μ_{1} (X) - μ_{0} (X)}]}{E [h (X)]},$ 这引导出结果回归估计量 ${\hat{τ}}^{h} = \frac{\sum_{i = 1}^{n} h (X_{i}) {{\hat{μ}}_{1} (X_{i}) - {\hat{μ}}_{0} (X_{i})}}{\sum_{i = 1}^{n} h (X_{i})} .$
此外, 我们可以说明 $τ^{h}$ 有如下的权重形式 $τ^{h} = E [\frac{Z Y h (X)}{e (X)} - \frac{(1 - Z) Y h (X)}{1 - e (X)}] / E [h (X)] .$
从这里看出, 每一个单元都被联系了一个权重, 来自被估计量的定义和逆倾向得分带来的权重. 最后, 实验单元被乘以权重 $\frac{h (X)}{e (X)}$ , 而对照单元 $\frac{h (X)}{1 - e (X)}$ . 下面是一些结果

群体	$h (X)$	被估计量	权重
结合	$1$	$τ$	$\frac{1}{e (X)}$ , $\frac{1}{1 - e (X)}$
实验组	$e (X)$	$τ_{T}$	$1$ , $\frac{e (X)}{1 - e (X)}$
对照组	$1 - e (X)$	$τ_{C}$	$\frac{1 - e (X)}{e (X)}$ , $1$
重合	$\frac{e (X)}{1 - e (X)}$	$τ_{O}$	$1 - e (X)$ , $e (X)$

这里 $τ_{O} = \frac{E [e (X) {1 - e (X)} τ (X)]}{E [e (X) {1 - e (X)}]}$ 是新的, 它相比 $e (X)$ 接近 $0 / 1$ 的 IPW, 更加稳定. 如果 $e (X) ⊥ ⊥ τ (X)$ , 则 $τ_{O} \to τ$ .
但是这里能看出它只对 $e (X) = \frac{1}{2}$ 的"摇摆不定的"人有最大的权重, 而对那些有极端倾向得分的人权重反而低. 它改变了初始的群体, 基于实际可能有错的倾向得分.

1 τT 的非参数表示

2 τT 的 IPW 和双重稳健估计

3 其他被估计量

1 $τ_{T}$ 的非参数表示

2 $τ_{T}$ 的 IPW 和双重稳健估计